@仿生人会梦到电子羊吗Do Androids Laugh at Electric Sheep

摘要

1. 介绍

2. 数据集和任务设置

2.1 任务设置

匹配

质量排名

解释

评估指标

2.2 漫画注释

3. 实验

来自像素(FP)模型

CLIP

OFA→LM

来自描述(FD)模型

T5

GPT-3、GPT-3.5、GPT-4

基线

仅标题

人类表现估计

硬件 + 软件细节

3.1 匹配和质量排名结果

Pasted image 20250310162234.png

3.2 解释的人工评估

Pasted image 20250310162311.png

Q1:模型是否利用标题的图像上下文来生成更好的解释?

Q2:计算机视觉是高质量解释生成的瓶颈吗?

Q3:更大的 T5 模型是否会生成更好的解释?

Q4:对于解释生成,微调 LLM 模型是否有助于与上下文学习相比?

Q5:即使使用 GPT-4,监督解释是否有帮助?

Q6:GPT-4 是否优于 GPT-3?

Q7:我们最好的模型 GPT-4 是否能像人类一样解释笑话?

3.3 匹配的错误分析

Q8:有些比赛是否比其他比赛更难?

4. 相关工作

幽默

NLP + 标题大赛

衡量标题的偏好

多模态和计算幽默

解释幽默

5. 结论

6. 局限性